PRISM: Recuperando conjuntos de instrucciones de activaciones
PRISM decodifica las instrucciones activas en modelos de lenguaje. Un nuevo enfoque para monitorizar agentes de IA ante inyecciones y objetivos ocultos.
PRISM decodifica las instrucciones activas en modelos de lenguaje. Un nuevo enfoque para monitorizar agentes de IA ante inyecciones y objetivos ocultos.